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摘 要 : 随 着 空间 天 文 卫 星 获取 数据 量 越 来 越 多 ， 数 据 应 用 逐渐 发 挥 了 重要 作用 。 现 有 的 天 文 卫星 地 面 系统 中 ， 
数据 存储 方式 和 组 织 方法 各 异 ， 数 据 量 达 PB 级 ， 并 且 数 据 量 持续 增长 ， 无 法 快速 查找 并 提取 特征 参数 ， 难 以 
满足 数据 应 用 对 查询 的 时 效 性 要 求 。 本 文 提 出 了 一 种 新 的 空间 天 文 卫 星 数据 组 织 方法 ， 通 过 解析 抽取 数据 中 的 
海量 特征 参数 ， 建 立 观测 时 间 、 空 间 位 置 与 特征 参数 的 关联 ， 实 现在 统一 时 空 下 的 多 源 数据 组 织 ; 同时 采用 关 
系 型 数据 库 与 非 关 系 型 数据 库 结 合 的 异 构 存 储 方式 ， 设 计 了 海量 特征 参数 存储 管理 系统 。 将 本 文 方法 应 用 于 空 
间 科 学 卫星 大 数据 应 用 平台 系统 中 ， 使 用 硬 X 射线 调制 望远镜 卫星 数据 的 实验 结果 表明 ， 系 统 针对 按照 时 间 、 
空间 条 件 获取 数据 的 要 求 能 够 较 好 满足 ， 相 比 关系 型 数据 库 数 据 组 织 方式 ， 相 同 查询 模式 下 数据 检索 效率 明显 
提高 ， 并 且 随 着 数据 存储 量 的 增加 ， 系 统 具 有 稳定 的 扩展 能 
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2015 年 以 来 ， 我 国 陆续 发 射 了 暗 MIRO T SUE WB X 射线 调制 望远镜 、 引 力 波 暴 高 能 电磁 对 应 
体 全 天 监测 器 卫星 等 空间 天 文 卫 星 ， 持 续 获 取 了 大 量 空 间 天 文 观测 数据 。 地 面 系 统 对 卫星 原始 探测 数据 以 
及 在 此 基础 上 生成 的 编辑 级 产品 、 标 定 级 产品 进行 存储 和 管理 ， 这 些 数据 产品 是 卫星 在 一 定时 空 条 件 下 的 
探测 成 果 ， 产 品 内 容 包 含 粒子 类 别 、 粒 子 数量 、 粒 子 能 段 、 粒 子 入 射 径 迹 、 粒 子 能 量 沉 积 等 表征 空间 天 文 
目标 的 信息 ， 同 时 还 包含 卫星 在 轨 姿 态 、 轨 道 位 置 、 温 度 、 压 力 等 表征 卫星 平台 、 有 效 载荷 工作 状况 的 信 
息 。 这 些 数据 用 于 空间 天 文 研究 、 星 及 载荷 健康 状况 趋势 分 析 、 卫星 探测 目标 分 析 与 计划 辅助 制定 、 卫 
星 探测 过 程 可 视 化 等 应 用 领域 ， 能 够 发 挥 重 要 的 数据 价值 。 

现 有 的 空间 科学 战略 先导 专项 卫星 数据 地 面 管 理 系 统 中 ， 按 照 国 家 空间 科学 中 心 提 出 空间 科学 数据 模 
型 赔 ， 空 间 天 文 卫星 数据 以 FITS (Flexible Image Transport System) "?', ROOT 〈 欧 洲 核 子 研究 中 心 开发 
的 一 种 数据 格式 ) 等 空间 科学 领域 专用 的 数据 格式 保存 在 文件 中 。 在 获取 数据 时 ， 首先 需要 检索 数据 文件 
并 解析 文件 格式 I， 然后 从 文件 指定 位 置 抽取 所 需 的 特征 参数 ， 对 某 些 数据 还 需要 进行 物理 量 转 换 、 时 间 
校正 等 处 理 四 。 由 于 各 型 卫星 数据 产品 的 存储 格式 不 相同 ， 获 取 特征 参数 的 数据 处 理 过 程 也 不 相同 ， 处 班 
过 程 复杂 且 耗 时 ， 而 随 着 数据 量 的 不 断 增 长 ， 数 据 库 检 索 时 间 越 来 越 长 ， 数 据 获取 的 实时 性 越 来 越 难以 保 
证 。 目 前 以 文件 为 粒度 进行 数据 存储 和 组 织 的 系统 难以 满足 数据 实时 检索 获取 的 要 求 。 

为 了 满足 实时 获取 数据 的 应 用 需求 ， 需 要 从 空间 天 文 数据 文件 中 抽取 出 特征 参数 ， 构 建 一 种 高 效 的 参 
数 级 细 粒 度数 据 组 织 方法 。 但 是 ， 从 海量 空间 天 文 数 据 文 件 中 抽取 得 到 的 特征 参数 数量 巨大 ， 如 何 高 效 地 
组 织 和 索引 这 些 数 据 将 是 一 个 非常 关键 的 问题 。 


O ”1 空间 天 文 卫星 数据 特点 


空间 天 文 卫星 观测 对 象 主要 是 宇宙 太空 中 的 各 类 天 体 目 标 ， 空 间 天 文 卫星 数据 包括 表征 这 些 观 测 对 象 
的 科学 数据 ， 以 及 表征 卫星 和 载荷 状态 的 工程 数据 ， 这 类 数据 存在 以 下 特点 : 

(1) 数据 种 类 多 样 ， 时 间 分 辨 紊 高， 数据 量 庞大 

从 产品 内 容 来 讲 ， TAXE 时 数据 包 合 天 文 目 标 科学 数据 、 卫 星 平台 及 载荷 工程 数据 等 类 型 ， 从 产 

品级 别 来 讲 ， 包 含 编辑 级 产品 、 标 定 级 产品 等 类 型 。 每 颗 卫 星 的 产品 内 容 、 产 品级 别 有 所 不 同 。 以 暗物质 

星 为 例 ， 产 品级 别 有 9 级 ， 每 级 产品 类 型 约 为 十 几 类 ， 共 计 100 多 类 。 以 暗物质 卫星 标定 级 产品 为 例 ， 
半 小 时 左右 的 数据 文件 中 包含 粒子 数量 达 12 万 左右 ， 每 个 粒子 的 参数 包括 粒子 在 各 载荷 中 的 沉积 能 量 、 
击 中 位 置 . 粒 子 入 射 径 迹 等 , 按 5 年 卫星 寿命 期 估算 ,产生 的 数据 约 为 105.1 亿 条 ,工程 数据 包括 卫星 AOCC 
(Attitude and Orbit Control Computer) 姿态 数据 、GPS (Global Positioning System) 定位 数据 等 几 十 类 数 
据 ， 大 部 分 数据 为 每 秒 一 条 记录 ， 还 有 一 部 分 数据 每 秒 两 条 甚至 四 条 记录 。 按 照 每 秒 o 
每 颗 卫 星 每 年 每 类 数据 产生 3000 多 万 条 记录 ， 按 照 卫星 寿命 $ 年 、 每 颗 卫星 35 KAA, UAR DH 
内 产生 数据 量 约 50 多 亿 条 。 数 据 总 量 达 百 亿 甚至 千 亿 数量 级 ， 人 迫切 需要 构建 一 和 UP R ER UR 
效 组 乡 方法 。 
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(20 数据 具有 时 间 、 空 间 属 性 特征 ， 需 要 文 持 基于 时 空 条 件 快速 检索 多 类 数据 的 应 用 需求 

空间 天 文 卫 星 数据 信息 表达 为 (Time，RA，DEC，par1，Ppar2...…….)。 其 中 ，Time 表示 观测 时 间 ; RA 
表示 当前 观测 时 间 卫 星 视 场 中 心 点 赤 经 ; DEC 表示 当前 观测 时 间 卫 星 视 场 中 心 点 赤 纬 ，parl1，par2 表示 特 
征 参数 值 ， 比 如 高 能 电子 计数 值 、 载 荷 工 程 参数 测量 值 等 。 空 间 天 文 数据 具有 时 间 、 空 间 属性 特征 ， 为 了 
支持 基于 时 空 检索 条 件 对 多 源 数 据 进 行 快速 检索 ， 需要 对 多 源 数据 的 时 间 、 空 间 属性 进行 统一 处 理 ， 构 建 
基于 特征 参数 时 空 索 引 的 数据 组 织 方法 和 检索 方法 ， 面 向 应 用 提供 符合 要 求 的 数据 。 

(3) 数据 量 持续 增长 ， 需要 可 扩展 架构 支持 日 益 增 长 的 数据 存储 要 求 

伴随 着 已 有 卫星 持续 在 轨 运 行 和 新 型 卫星 发 射 入 轨 ， 空 间 天 文 卫 星 数据 体 量 呈现 持续 增长 的 趋势 ， 需 
要 构建 一 套 在 存储 容量 方面 具备 良好 可 扩展 性 的 分 布 式 数据 库存 储 系统 ; 并 且 ， 随 着 存储 容量 的 增加 ， 其 
检索 效率 能 够 基本 稳定 。 


2 相关 研究 工作 


对 空间 天 文 卫星 海量 数据 组 织 和 快速 获取 的 需求 ， 传 统 关系 型 数据 库 难以 满足 。HBase 等 非 关系 型 
数据 库 具 有 数据 结构 灵活 、 水 平 扩展 性 强 的 特点 ， 能 够 比 传统 的 结构 化 数据 库 更 加 有 效 地 组 织 大 数据 
然而 ， 由 于 HBase 数据 库 仅 在 主键 上 建立 了 B+ 树 索引 ， 能 够 提供 基于 主键 的 快速 查询 能 力 ， 在 面 对 非 主 
刍 查 淘 请 求 时 ， 需 要 进行 全 表 扫 撒 ， 导 致 询 效率 很 低 。 而 空间 天 文 卫 星 数据 需要 按照 时 间 . RA RA. 
参数 等 多 重 属性 进行 检索 ，HBase 难以 满足 按照 多 重 属性 快速 检索 数据 的 需求 。 

利用 非 关系 型 数据 库存 储 和 检索 海量 时 空 数 据 ， 多 个 行业 的 学 者 痢 进 行 了 研究 ， 主 要 分 为 两 种 思路 
一 种 是 地 理 信息 、 国 土 资源 、 空 间 科 学 等 领域 的 学 者 ， 从 构建 时 空格 网 模型 出 发 ， 将 时 空 数据 按照 时 空 
码 存 入 非 关系 型 数据 库 。 比 如 张 嘉 等 四 提出 了 一 种 空间 矢量 数据 分 布 式 存储 模型 ， 采 用 四 又 树 建立 空间 格 
网 ， 并 以 格 网 编号 、 随 机 得 构建 行 键 ， 将 数据 存储 在 HBase 数据 库 中 。 康 栋 名 等 ”提出 了 HTM-ST 离散 化 
时 空 数据 组 织 模型 ， 采 用 时 间 、 空 间 离散 痢 分 的 方式 建立 时 空 耦合 编码 ， 并 以 该 编码 构建 行 键 ， 将 日 地 空 
间 数 据 存储 在 HBase 数据 库 中 。 由 于 HBase 采用 字典 序 方式 存储 行 键 , 采用 多 重 属性 构建 行 键 的 方法 仅 适 
用 于 点 查询 ， 针 对 范围 查询 ， 需 要 逐 层 判断 各 个 时 空 网 格 与 查询 范围 的 拓扑 关系 ， 在 剖 分 细 化 的 过 程 中 不 
i EXHI. 

一 种 思路 是 计算 机 信息 技术 领域 的 学 者 ， 通 过 构建 多 层 索 引 ， 来 提升 非 关系 型 数据 库 的 数据 检索 效 

率 。 比 如 ， 葛 微 等 & 昌 出 一 种 基于 索引 表 和 值 表 、 并 结合 热点 数据 援 存 的 分 层 式 索引 技术 。 该 方法 在 一 定 
程度 上 提升 了 检索 效率 ， 但 在 多 属性 范围 检索 时 需要 对 多 列 查询 结果 进行 合并 处 理 ， 同 样 无 法 满足 空间 科 
学 领域 需要 按照 时 空 范围 实时 获取 数据 的 需求 。 责 茂 林 等 0 提出 一 种 名 为 TA-index 的 三 层 索引 技术 。 访 
方法 由 在 提升 数据 入 库 效率 , 在 时 空 沧 围 查询 时 由 于 需要 分 多 次 查询 多 层 索引 和 数据 库 表 , 因此 耗 时 较 长 。 
针对 海量 空间 天 文 卫星 数据 需要 按照 时 间 、 空 间 双重 属性 进行 组 织 和 查询 的 需求 ， 本 文 提 出 了 提出 了 
一 种 新 的 空间 天 文 卫星 数据 组 织 方法 。 首 先 解析 数据 文件 并 从 中 抽取 出 海量 特征 参数 ， 建 立 观测 时 间 、 空 
间 位 置 与 特征 参数 的 关联 ， 实 现在 统一 时 空 下 的 多 源 数据 组 织 。 然 后 结合 非 关 系 型 数据 库 数据 结构 灵活 、 
水 平 扩展 性 强 ， 以 及 关系 型 数据 库 在 多 列 值 范围 查询 方面 的 优势 ， 建 立 了 一 套 基于 异 构 数据 库 进行 数据 组 
织 和 存储 的 方式 ， 其 中 采用 分 布 式 数据 库 分 区 分 表 的 方式 ,构建 空间 天 文 卫星 HBase 集群 数据 库 ， 对 海量 
特征 参数 进行 存储 管理 ， 采 用 关系 型 数据 库 分 表 的 方式 ， 存 储 空间 天 文 卫星 时 空 索引 数据 ， 支 持 从 时 间 、 
空间 两 个 维度 检索 数据 。 


3 空间 天 文 卫星 数据 组 织 


3.1 特征 参数 抽取 


现 有 的 空间 天 文 卫星 数据 以 文件 形态 存储 在 地 面 管理 系统 中 ， 特 征 参 数 抽取 是 空间 天 文 卫星 大 数据 高 
效 组 织 的 第 一 步 。 基 于 FITSIO (https://heasarc.gsfc.nasa.gov/fitsio/fitsio.html)、ROOT (http://root.cern.ch) 
格式 解析 框架 ， 构 建 数据 解析 算法 ， 能 够 适应 现 有 卫星 多 种 数据 格式 参数 抽取 的 要 求 。 主 要 步骤 如 下 : 

(D fü 先 设置 各 卫星 各 类 数据 需 和 要 抽取 的 参数 ， pn cardo 

(2) 获取 卫星 数据 产品 文件 ， 识 别 卫星 名 称 、 数 据 类 型 、 存 储 格式 ; 

(3) 根据 卫星 名 称 、 数 据 类 型 ， 与 步 又 0 

(4) 针 对 FITS 格式 数据 文件 , 调用 FITSIO 提取 各 参数 值 及 其 观测 时 间 ; 针对 ROOT 格式 数据 文件 ， 
调用 ROOT 格式 解析 框架 提取 各 参数 值 及 其 观测 时 间 ; 针对 CSV. dat 等 普通 格式 文件 ， 直 接 提取 各 参数 
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值 及 其 观测 时 间 ; 
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(50 根据 需要 对 提取 出 的 参数 进行 物理 量 转换 ， 比 如 将 载荷 温度 、 压 力 等 参数 值 从 星 上 记录 的 电信 


号 值 转换 为 有 物理 含义 的 参数 值 ; 


(6) 基于 卫星 姿态 数据 计算 逐 时 刻下 卫星 观测 视 场 位 置信 息 (RA，DEC)。 


3.2 特征 参数 存储 


面向 海量 特征 参数 时 间 序 列 数 据 的 存储 需求 , 本 文 提出 一 种 基于 HBase 集群 构建 的 特征 参数 存储 结构 


《如 图 1 所 示 )， 以 参数 分 表 + 时 间 分 区 的 方式 进行 存储 ， 支 持 以 时 间 点 、 时 间 范 围 为 条 件 检索 数据 。 
首先 ,以 单个 参数 或 几 个 关联 参数 为 粒度 , 将 海量 特征 参数 划分 为 Groupl. Group2 等 不 同 的 参数 组 ， 
分 别 建立 参数 表 。 其 中 ， 针 对 姿态 四 元 数 、 轨 道 位 置 xyz 坐标 值 、 轨 道 六 根 数 等 互相 关联 的 参数 ， 将 其 按 
V 划分 为 一 组 ， 其 余 参 数 单独 建 表 存 储 。 这 
种 存储 方式 一 方面 能 够 提高 数据 存储 的 灵活 性 ， 便 于 管理 ， 另 一 方面 能 够 支持 多 组 参数 表 并 发 查询 ， 从 而 


组 建 表 存 储 ， 比 如 图 中 参数 A、B、C 划分 为 一 组 ， 参 数 U, 


提高 多 参数 查询 效率 。 


然后 , 基于 各 类 参数 的 时 间 频 率 , 按照 时 间 范 围 对 各 参数 表 进行 分 


X, 分 别 建立 独立 的 时 间 分 区 索引 。 


比如 ， 图 1 中 Tablel 参数 时 频 较 高 ， 以 5 个 时 间 单 位 为 跨度 建立 tl1、t6、t11... 的 时 间 分 区 索引 ; 而 TableN 
参数 时 频 较 低 ， 以 10 个 时 间 单 位 为 跨度 建立 t1、t11... 的 时 间 分 区 索引 。 这 种 分 区 设计 能 够 将 数量 庞大 的 


参数 按照 时 间 范 围 存 入 不 同 区 域 ， 在 参数 检索 过 程 中 ， 文 持 通 过 分 


持 多 分 区 并 发 查询 ， 从 而 进一步 提高 查询 效率 。 


区 索引 查找 对 应 时 段 数据 ， 并 且 能 够 文 


Data File filel file... fileN 
| | | | | 
Time A B C D Time U V Ww 
. tl al bl cl dl tl ul vl wl 
ken 2 a2 b2 c dm 2 |w v2) vw 
Series 
Data t3 a3 b3 c3 d3 t3 u3 v3 w3 
t4 a4 b4 c4 d4 t4 u4 v4 w4 
t5 a5 b5 c5 d5 t5 us v5 w5 
| | | 
| | 
Groupl: A. B E D roupN-1: U, V GroupN: W 
Tablel TableN 
Time A B c ET Time w 
l| td p_i al bl cl ———À—1 4 H wl 
2 | t6 t2 a2 b2 c2 1 tl t2 w2 
: zn t3 a3 b3 c3 2 uL t3 w3 
t4 a4 b2 c4 3 = 21 m w4 
-= t5 as | bs | c5 4 ni 5 | ws 
Time- t6 a6 b6 c6 m t6 wó 
partitioned " a7 b7 c7 Time- t7 w7 
Index of t8 a8 b8 c8 partitioned t8 w8 
Table1 t9 a9 b9 c9 Index of t9 w9 
uo | al0 | blo | c10 TableN H0. [o wIO 
Hl | all | bll | cil 和 
u2 | am | bl2 | cl2 TE s 
t13 al3 bis c13 ua | là 
tl4 al4 b12 cl4 t15 wl5 
t15 al5 | bl5 | c15 ü6 | wi6 
t16 al6 | bl6 | c16 u7 [| wl7 
4 xj * 
1 特征 参数 存储 结构 
Fig.1 Parameters’ storage structure 
3.3 时 空 索引 存储 


时 空 索引 表示 观测 时 间 与 观测 视 场 中 心 点 位 置 的 关系 ， 需 要 存储 Time、RA、DEC 三 个 字段 数据 。 时 


非 关系 型 数据 库 HBase 的 优势 在 于 通过 行 键 或 者 行 键 的 范围 


快速 检索 数据 , 在 


要 进行 全 表 扫 描 


空 索引 需要 满足 按照 时 间 、 空 间 范围 联合 检索 的 需求 ， 即 按照 Time. RA. DEC 字段 范围 获取 数据 。 由 于 


四 对 非 主键 查询 需求 时 ， 需 


因而 效率 较 低 , 而 关系 型 数据 库 采 用 SQL (Structured Query Language. 结构 化 查询 语言 ) 


查询 的 方式 , 适合 这 种 多 列 值 查询 的 应 用 需求 , 不 仅 能 够 满足 点 查询 需求 (按照 指定 时 间 、 位 置 获取 数据 )， 


而 且 能 够 满足 范围 查询 需求 〈 按 照 时 间 范 围 、 空 间 范 围 获 取 数 据 )。 因 


型 数据 库 MySQL 库 表 中 。 


此 ， 本 文 将 时 空 索 引 数据 存 入 关系 


卫星 观测 过 程 中 ， 每 秒 产生 一 条 时 空 索 引 数据 ， 观 测 时 间 为 顺序 递增 值 。 在 时 空 索 引 表 中 ， 将 Time 


字段 设置 为 主键 。 另 外 ， 由 于 时 空 索引 每 秒 一 条 记录 ， 每 颗 卫星 每 年 数据 量 高 达 3000 多 万 条 ， 而 MySQL 
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库 表 数 据 到 了 千 万 级 后 ， 检 索 效 率 会 很 低 。 对 数据 库 表 进 行 水 平 切 分 ， 能 够 解决 超大 型 数据 量 和 高 负载 库 
表 遇 到 瓶颈 的 问题 ， 提 高 检索 效率 。 

由 于 本 文 面向 的 典型 应 用 场景 每 次 请 求 数据 的 时 长 基本 上 是 小 时 级 ， 大 概率 是 查询 单 表 ， 而 单 表 数据 
量 控 制 在 百 万 级 别 能 够 保证 检索 效率 。 因 此 ， 在 时 空 索引 数据 存储 过 程 中 ， 按 照 观测 时 间 Time 字段 ， 以 
月 为 单位 对 时 空 索引 表 进 行 水 平 切 分 ， 切 分 后 的 子 表 数 据 量 为 200 多 万 条 。 同 时 ， 针 对 跨 两 个 表 的 联合 查 
询 ， 也 做 了 摸底 测试 ， 联 合 查 询 耗 时 与 单 表 查 询 没 有 明显 区 别 。 但 是 ， 如 果 应 用 场景 发 生变 化 ， 比 如 检索 
时 长 较 长 ， 经 常 需 要 联合 查询 或 者 需要 联合 多 张 表 进 行 查询 ，MySQL 分 表 方 案 可 能 需要 随 之 进行 调整 。 
联合 查询 的 SQL 语句 如 下 所 示 : 


select Time from Tablel 
where Time>=?5 and Time<=?6 and RA>=?1 and RA<=?2 and DEC>=?3 and DEC<=?4 
union 

select Time from Table2 
where Time>=?5 and Time«z?6 and RA>=?1 and RA<=?2 and DEC>=?3 and DEC<=?4 


4 面向 应 用 的 数据 检索 


本 文 方法 能 够 支持 以 时 间 、 空 间 为 条 件 对 特征 参数 进行 检索 。 根 据 时 间 和 空间 组 合 数据 检索 条 件 ， 数 
据 检索 需求 可 分 为 时 间 点 、 时 间 范 围 、 空 间 点 、 空 间 范 围 、 时 间 点 + 空间 点 、 时 间 点 + 空间 范围 、 时 间 范 围 
©) + 空间 点 、 时 间 范 围 + 空 间 范 围 共 8 种 情况 。 
< 十 当 检 索 请 求 仅 包含 时 间 信 息 时 ， 根 据 时 间 点 或 者 时 间 范 围 对 待 检索 参数 表 发 起 多 个 并 行 检索 任务 ， 针 
对 以 时 间 点 为 检索 条 件 的 请 求 ， 调 用 HBase get 方法 〈 根 据 唯一 健 值 查询 ) 对 参数 表 进 行 检 索 ;， 针对 以 时 
-— 间 段 为 检索 条 件 的 请 求 ， 调 用 HBase scan 方法 〈 根 据 唯一 键 值 的 起 止 范 围 查 询 ) 对 参数 表 进行 检索 ， 完 成 
— 检索 后 ， 对 多 个 任务 的 检索 结果 进行 合并 。 
: 当 检 索 请 求 包含 空间 信息 时 ， 首 先 检 索 时 空 索引 表 ， 获 取 符 合 条 件 的 时 间 信 息 ; 然后 再 根据 时 间 信 息 

以 检索 赤 经 RA 范围 在 〈(r1，r3)、 赤 纬 DEC 范围 在 (dl1，d2)、 观 测 时 间 Time WE (t1, t100) H 
检索 参数 为 A、B、C、W 为 例 ， 检 索 过 程 如 图 2 所 示 。 

(1) 以 “r1<RA<r3 and dl<DEC<d2 and t1<Time<t100” 为 条 件 对 时 空 索 引 表 进行 检索 ,得 到 检索 结果 @; 

(2) 以 “t1<Time<t100” 为 条 件 ， 检 索 参 数 为 A、B、C、W， 由 于 参数 W 与 参数 A. B. C 存储 在 不 
e 同 表 ， 需 生成 ABC 参数 表 检 索 任 务 和 W 参数 表 检 索 任务 ， 两 条 检索 并 发 执行 ; 
(3) 以 “tl1<Time<t100” 为 条 件 ， 首 先 查 ABC 参数 表 的 分 区 索引 ， 然 后 对 符合 条 件 的 分 区 表 同 时 进行 
检索 ， 得 到 检索 结果 @、@@); 
一 (4) 以 “t1<Time<t100” 为 条 件 ， 首 先 查 W 参数 表 的 分 区 索引 ， 然 后 对 符合 条 件 的 分 区 表 同 时 进行 检 
FI 索 ， 得 到 检索 结果 由 、@); 

(5) 合并 检索 结果 @、@@、 由 、@@， 最 终 得 到 检索 结果 (6)。 
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Conditions: RA, DEC, Time 
Parameters: A, B. CV W T 
t6 
tl1 
t16 


t rl dl t72 
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A B C Ww 
al bl cl wl 
a2 b2 c2 w2 
a3 b3 c3 w3 


t75 | a75 | b75 | c75 [ 4 [a ]|$€ |c4]| wj 

—-— Lm [an | en [en [wi] 

[Time| W | t2 | a72 | b72 | c72 | w72 
tl wl 


w2 Retrieval Result 
t3 w3 © 
t4 w4 
| 5 | w 


2 数据 检索 过 程 
Fig.2 the process of data retrieval 


5 系统 验证 与 分 析 


5.1 实验 设计 


按照 本 文 方法 ， 基 于 3 台 4 核 CPU、32G 内 存 的 虚拟 服务 器 ， 搭 建 了 一 套 HBase 集群 +MySQL 的 测 


试 系统 (以 下 简称 改进 系统 HeteroDB )。 测 试 数 据 为 硬 X 卫星 2021 年 9 月 


零点 ， 记 录 数 量 约 为 500 万 条 。 对 照 系统 采用 
据 《〈 以 下 简称 对 照 系统 MySQL). 

查询 检索 服务 是 数据 组 织 和 管理 的 核心 ， 
索 条 件 选 取 了 按照 时 间 范 围 检索 某 类 参数 、 按 
类 参数 共 3 类 典型 场景 ， 检 索 条 件 涵盖 时 间 、 


相同 的 检索 条 件 ， 对 比 改进 系统 、 对 照 系统 的 检索 效率 。 为 避免 虚拟 服务 器 资源 不 稳定 带 来 的 影响 以 及 其 


他 偶然 误差 ， 本 文 所 有 检索 分 两 个 时 有 段 进行 ， 


jæ 


日 零点 至 2021 Æ 10 H 31 H 
MySQL 数据 库 ， 以 库 表 形式 存储 了 硬 X 卫星 同时 段 探 测 数 


因此 ， 本 文 基于 数据 检索 效率 对 两 种 系统 进行 对 比 验证 。 检 
照 时 间 范 围 检索 多 类 参数 、 按 照 时 间 和 空间 范围 联合 检索 某 
空间 ， 检 索 参 数 涵盖 单个 、 多 个 。 针 对 上 述 场景 ， 通 过 设置 


记录 值 为 10 次 检索 耗 时 的 平均 值 。 


场景 下 的 响应 速度 进行 测试 。 
步 设计 实验 3， 针 对 本 文 方法 在 数据 量 


实验 1 针对 两 种 系统 在 时 间 检 索 场 景 下 的 响应 速度 进行 对 比 。 实 验 2 针对 改进 系统 对 时 间 + 空 间 检索 


量 增加 情况 下 的 可 扩展 性 进行 验证 。 实 验 3 中 ， 将 HBase 数 


据 库 的 记录 数量 由 500 万 条 逐步 扩展 到 8000 万 条 ， 以 相同 的 检索 条 件 来 测试 数据 检索 耗 时 与 数据 规模 之 


间 的 关系 。 
5.2 实验 结果 及 分 析 


COD 实验 1 时间 检索 实验 及 结果 分 析 
实验 1 设置 为 库 表 记录 数量 为 500 万 条 的 


情况 下 ， 以 时 间 范 围 为 检索 条 件 获取 指定 参数 ， 其 中 时 间 跨 


度 为 1 小 时 、2 小 时 、3 小 时 、4 小 时 ， 检 索 参 数 为 1 个 参数 、3 个 参数 。 设 置 相同 的 检索 条 件 ， 分 别 在 改 


进 系统 、 对 照 系统 中 进行 检索 。 
测试 结果 


表 1) 显示 ， 在 检索 时 间 跨 度 较 小 、 检 索 单个 参数 的 场景 下 (场景 1-1)， 对 照 系统 检索 耗 时 与 改进 系 


统 相 当 ; 但 随 着 检索 时 间 跨 度 的 增长 、 参 数 的 ] 


后 者 的 80 多 倍 ， 显 彰 超 过 改进 系统 。 


肖 多 ， 对 照 系统 耗 时 增长 明显 ， 在 场景 24 中 ， 前 者 耗 时 是 


这 是 由 于 MySQL 数据 库 平衡 二 叉 树 索引 机 制 ， 在 检索 过 程 中 需要 多 次 查找 ， 随 着 检索 时 长 增 大 、 检 
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索 参 数 增多 ， 其 查找 次 数 : 


排序 方式 存储 行 键 的 机 制 


， 采 用 时 间作 为 行 键 ， 并 且 使 用 参数 4 


高 了 检索 效率 ， 因 此 在 面 


向 时 间 检 索 场 景 中 获得 了 明显 的 改 ; 


(2) 实验 2: 时 空 联合 检索 实验 及 结果 分 析 

实验 2 检索 条 件 设 置 为 库 表 记录 数量 为 500 万 条 的 情况 下 ， 按 照 时 间 范 围 、 赤 经 范围 、 赤 纬 范 围 的 联 
合 条 件 检 索 单个 参数 ， 对 比 两 种 方法 对 时 空 联合 检索 请 求 的 响应 速度 。 

测试 结果 《〈 表 2) 显示 ， 本 文 方法 能 够 较 好 地 支持 以 时 间 范 围 、 空 间 范 围 联合 对 数据 进行 检索 。 场 景 
3-1( 时 间 跨 度 1 小 时 、 赤 经 赤 纬 跨度 10 度 ) 中 ， 改 进 系统 检索 耗 时 为 26.3ms; 同样 检索 条 件 下 ， 对 照 系 
统 检索 耗 时 与 改进 系统 基本 相当 。 但 随 着 时 间 范 围 、 空 间 范 围 的 扩大 , 对 照 系统 检索 耗 时 远 超过 改进 系统 。 


场景 3-4〈 时 间 跨 度 4 小 时 、 
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赠 多 ， 导 致 检索 效率 呈现 成 倍 下 降 的 趋势 。 改 进 系统 基于 HBase 数据 库 以 字典 序 


分 表 和 时 间 分 区 存储 、 并 行 查询 的 方式 ， 提 
效果 。 


(3) 实验 3: 扩展 性 实验 与 结果 分 析 


为 了 验证 改进 系统 在 不 同 数据 规模 下 的 检索 怕 
8000 万 ， 采 用 相同 的 检索 场景 来 测试 系统 检索 效率 。 


杰 经 杰 纬 10 度 ) 中 ， 对 照 系统 检索 耗 时 约 为 改进 系统 的 5.3 倍 。 


ERE, 将 测试 数据 逐步 扩展 到 1000 万 、2000 万 、4000 万 、 
测试 结果 C 


R 3) 表明 ， 在 测试 数据 量 范 围 内 ， 随 着 数据 量 的 增 大 ， 改 进 系统 对 于 时 间 检 索 、 时 空 联合 检索 场景 
的 检索 效率 保持 基本 稳定 。 

这 是 由 于 改进 系统 采用 参数 表 按时 间 分 区 的 存储 方式 ， 支持 对 符合 检索 条 件 的 多 个 分 区 同时 进行 检索 。 
因此 ， 随 着 数据 量 的 增 大 ， 时 间 分 区 也 会 增多 ， 多 分 区 并 行 检索 的 机 制 使 得 检索 效率 基本 保持 稳定 。 随 着 
man 步 增 大 ， 在 时 间 分 区 数量 过 多 、 服 务 器 资源 不 足 的 情况 下 ， 一 定 会 出 现 检索 效率 逐渐 降低 的 
这 时 可 以 通过 增加 HBase 分 布 式 数据 库 的 节点 数量 来 保证 数据 检索 效率 。 


表 1 时 间 检 索 效 率 对 比 


Tablel Comparison of efficiency under time retrieval conditions 


The Average The Average 
No. Retrieval Conditions Retrieval time of Retrieval time 
HeteroDB/ms of MySQL/ms 
1-1 Time span: I hour, Parameter number: 1 19.3 16.9 
1-2 Time span: 2hours, Parameter number: 1 25.6 823.6 
1-3 Time span: 3hours, Parameter number: 1 39.6 1935.3 
1-4 Time span: 4hours, Parameter number: 1 50.2 2702.5 
2-1 Time span: lhour, Parameter number: 3 28.7 1065.7 
2-2 Time span: 2hours, Parameter number: 3 49.5 3469.4 
2-3 Time span: 3hours, Parameter number: 3 62.4 56532 
2-4 Time span: 4hours, Parameter number: 3 97.6 7180.7 


表 2 时 空 联合 检索 效率 对 比 


Table2 Comparison of efficiency under time and space retrieval conditions 


The Average The Average 
No. Retrieval Conditions Retrieval time of Retrieval time 
HeteroDB/ms of MySQL/ms 
Time span: Ihour, RA span and DEC span 
T are both 10^ , Parameter number: 1 us 29 
Time span: 2hours, RA span and DEC span 
13 are both 20^ , Parameter number: 1 2213 TI 
Time span: 3hours, RA span and DEC span 
2 are both 30^ , Parameter number: 1 d 14814 
3-4 Time span: 4hours, RA span and DEC span 517A 2736. 


are both 40^ , Parameter number: 1 


表 3 不 同 数据 规模 下 检索 效率 对 比 


Table3 Comparison of efficiency under different data sizes 


The Average The Average The Average The Average The Average 
No Retrieval time of Retrieval time of Retrieval time of Retrieval time of Retrieval time of 
` HeteroDB /ms HeteroDB /ms HeteroDB /ms HeteroDB /ms HeteroDB /ms 
(Smillions) (10millions) (20millions) (40millions) (80millions) 
1-1 19.3 20.5 20.8 21.6 212 
1-2 25.6 25.3 24.5 26.3 21.6 
1-3 39.6 394 40.2 42.9 46.5 
1-4 50.2 49.8 53.8 55.6 54.4 
3-1 26.3 26.1 28.6 28.7 292 
3-2 221.3 230.5 221.8 222.9 231.8 
3-3 393.7 378.2 390.1 403.2 404.3 
3-4 517.4 513.1 515.1 521.9 525.2 
6 结论 


Doc uu ccc. 空间 位 置 与 特 


针对 按照 时 间 、 空 间 范 围 快速 获取 空间 天 文 卫星 数据 指定 参数 的 需求 ， 本 文 提 出 一 种 对 海量 数据 进行 


征 参数 的 关联 关系 ,将 数据 文件 中 的 各 类 参数 纳入 到 统一 时 空 框架 下 ; 同时 采用 HBase 分 布 式 数据 库存 储 


EASI XOU MySOL 关系 型 数 据 库存 体 时 空 室 引 ， 以 细 和 方式 旭 行 数据 的 组 纵 各 青 。 来 方法 所 做 改 
进 包括 以 下 几 点 : 


简化 数据 获取 环节 ; 


CD 将 卫星 数据 文件 格式 解析 、 参 数 抽取 、 物 理 量 转换 等 过 程 从 传统 的 数据 获取 过 程 中 剥离 出 来 ， 


(2) 构建 分 布 式 数据 库 集群 ， 为 参数 独立 建 表 ， 并 且 按 照 时 间 范 围 对 参数 表 分 区 ， 将 参数 存储 在 分 


区 表 中 ， 支 持 按时 间 并 行 检索 ， 提 高 检索 效率 ; 


(3) 采用 关系 型 数据 库 分 表 的 方式 ， 存 储 空间 天 文 卫星 时 空 索 引 数据 ， 支 持 从 时 间 、 空 间 两 个 维度 


检索 数据 ; 

(4) 基于 分 布 式 数据 库 ， 对 于 观测 时 间 、 参 数 种 类 增加 带 来 的 数据 量 增 长 具备 展 好 的 可 扩展 性 ， 能 

够 适应 数据 持续 增长 的 存储 要 求 。 
仿真 结果 表明 ， 本 文 方法 能 够 显著 提高 数据 检索 效率 ， 满 足 实 时 获取 空间 天 文 卫 星 数据 的 应 用 需要 。 
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Abstract: With the increase of the space astronomical satellite data volume, data applications have gradually played an 
important role. Data applications such as research on space astronomical targets, payload status monitoring, spatial target 
analysis, detection plan assistance formulation, detection process visualization, etc., all require the processing and analysis of 
multi-source massive data such as detection target information, satellite platform parameters, and payload parameters. In order 
to realize the rapid extraction of characteristic data, this paper proposed a new method of data organization for space detection 
satellites. The method extracted massive characteristic parameters from data files, and established the association of 
observation time, spatial location and characteristic parameters, so as to realize multi-source data organization under a unified 
time and space frame. Then, Using the heterogeneous storage method of the combination of SQL database and No-SQL 
database, a characteristic parameter storage management system of 10 billion or even 100 billion was designed. The method in 
this paper was applied to the space science satellite big data application platform system. The experimental results of using 
HXMT(hard X-ray modulation telescope) satellite data showed that the system can better meet the requirements of obtaining 
data according to time and space conditions, compared with relational database data organization method, and the data retrieval 
efficiency under the same query mode was significantly improved; and with the increase of data storage capacity, the system 
has stable expansion capabilities. 


Key words: Space astronomical satellite data; time-space index; data organization; No-SQL database 


